MinerU 私有版本部署
ℹ特别说明
仅适用于 V5.11 以上的版本才支持私有化接入。
本章节内容为可选阅读,仅供参考。由于不同的硬件配置与部署环境可能存在差异,实际问题也会有所不同。建议按照本文环境及操作步骤执行,如遇异常可随时向 AI 寻求帮助,或咨询MinerU 官方,PIG AI 无法提供支持。
一、环境准备
1.1 硬件与系统要求
请确保你的机器满足以下最低配置:
- GPU:NVIDIA GeForce RTX 4090(显存 ≥24GB)
其他支持 CUDA 的 NVIDIA 显卡也可尝试,但建议显存 ≥16GB。
- 操作系统:Ubuntu 22.04 LTS(推荐使用纯净安装)
- CUDA 版本:12.8
- Python 版本:3.10 或更高
推荐使用系统自带 Python 或通过 conda 管理环境。
1.2 验证 PyTorch + CUDA 是否正常
打开终端,运行以下命令,检查你的 GPU 和深度学习环境是否就绪:
python3 -c "
import torch;
print('PyTorch版本:', torch.__version__);
print('CUDA可用:', torch.cuda.is_available());
print('CUDA版本:', torch.version.cuda);
print('GPU设备:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'None');
print('GPU数量:', torch.cuda.device_count());
"
✅ 正常输出示例:
PyTorch版本: 2.9.0+cu128
CUDA可用: True
CUDA版本: 12.8
GPU设备: NVIDIA GeForce RTX 4090
GPU数量: 1
💡CUDA 检查说明
如果看到 CUDA可用: False,说明 PyTorch 没有正确识别 GPU,请先安装对应 CUDA 版本的 PyTorch。
二、部署 MinerU 私有服务
2.1 获取项目代码
在终端中执行以下命令,下载 MinerU 服务代码:
git clone https://git.pig4cloud.com/pig/mineru-api.git
cd mineru-api
2.2 创建 Python 虚拟环境(推荐)
为了避免依赖冲突,建议使用虚拟环境:
python3 -m venv menv # 创建名为 menv 的虚拟环境
source menv/bin/activate # 激活虚拟环境
💡环境激活说明
激活后,命令行前缀通常会显示 (menv),表示你已进入该环境。
2.3 安装依赖
依次执行以下命令安装所需组件:
# 安装 MinerU 核心功能包
pip3 install -U "mineru[core]"
# 安装项目运行所需的其他依赖
pip3 install -r requirements.txt
💡安装加速说明
如果网络较慢,可考虑使用国内镜像源(如清华源)加速安装。
2.4 (可选)安装 LibreOffice(用于 Word/PPT 转 PDF)
如果你需要解析 .docx、.pptx 等 Office 文档,建议安装 LibreOffice:
sudo apt update
sudo apt install libreoffice -y
💡格式转换说明
安装后,MinerU 会自动将这些格式转换为 PDF 再进行解析。
2.5 安装缺失的图形库(如遇报错)
某些系统可能缺少图像处理依赖,若启动时报错类似 libGL.so 找不到,请运行:
sudo apt install libgl1-mesa-glx -y
三、启动 MinerU 服务(GPU 模式)
3.1 启动服务
执行启动脚本:
./start_mineru_gpu.sh start
⚠GPU 配置说明
默认脚本会使用 第 5 张 GPU(即 CUDA_VISIBLE_DEVICES=4)。
如果你只有一张 GPU(比如 RTX 4090),请先编辑脚本。
找到这一行:
export CUDA_VISIBLE_DEVICES=4
将其改为:
export CUDA_VISIBLE_DEVICES=0
保存后退出(Ctrl+O → 回车 → Ctrl+X),再重新启动服务。
3.2 停止服务
如需停止服务,运行:
./start_mineru_gpu.sh stop
3.3 服务信息
- 服务地址:
http://0.0.0.0:8020
- 工作进程数:4 个(可处理并发请求)
- 日志文件:
server.log(记录所有请求和错误)
- 测试页面:浏览器访问
http://localhost:8020/web
四、接入 PIG AI 系统
要在 PIG AI 中使用你本地部署的 MinerU 服务,请修改其配置文件(通常是 application.yml),添加以下内容:
pig:
ai:
mineru:
enabled: true # 启用 MinerU 功能
private: true # 使用私有部署(而非公有云)
base-url: http://127.0.0.1:8020 # 指向你本地的服务地址
💡关键说明
private: true 表示 不调用云端 API,而是使用你刚部署的本地服务。
- 确保 PIG AI 和 MinerU 运行在 同一台机器,或 网络互通(能互相访问 8020 端口)。
- 如果你用 Docker 或 Kubernetes 部署,请开放
8020 端口,并确保容器间网络连通。